AI资讯新闻榜单内容搜索-KV cache

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: KV cache

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

随着AI Coding、Agent、Deep Research 等应用快速普及，模型单次处理的上下文长度正在从几万Token迈向几十万甚至百万Token。

来自主题: AI技术研报

9863 点击 2026-06-15 09:18

超越TurboQuant：Together AI把2-bit KV Cache推向真实服务

超越TurboQuant：Together AI把2-bit KV Cache推向真实服务

超越TurboQuant：Together AI把2-bit KV Cache推向真实服务

长上下文模型越来越能“记”，但真正让它们跑到线上时，最先顶不住的往往不是算力，而是KV Cache。

来自主题: AI技术研报

5960 点击 2026-06-05 09:53

Claude Code 每条请求暗藏一行「有毒」header，52K 上下文推理被拖慢 5 倍！NVIDIA 一个 flag 修好了

Claude Code 每条请求暗藏一行「有毒」header，52K 上下文推理被拖慢 5 倍！NVIDIA 一个 flag 修好了

Claude Code 每条请求暗藏一行「有毒」header，52K 上下文推理被拖慢 5 倍！NVIDIA 一个 flag 修好了

NVIDIA Dynamo 团队发现，Claude Code 向自定义端点发送请求时，prompt 最前面会带一行 session-specific billing header。这行 header 每个 session 都变，导致 52K token 的稳定前缀在 KV cache 中无法复用——TTFT 从 168ms 飙到 912ms。Dynamo 加了一个 `

来自主题: AI资讯

11470 点击 2026-05-11 11:01

对抗KV Cache压缩的脆弱性：两行代码以最坏风险控制防御底层假设崩塌

对抗KV Cache压缩的脆弱性：两行代码以最坏风险控制防御底层假设崩塌

对抗KV Cache压缩的脆弱性：两行代码以最坏风险控制防御底层假设崩塌

随着大模型长上下文能力快速增长，海量 KV Cache 存储需求急剧增加，各类 KV Cache 压缩方法如雨后春笋般涌现。然而，这些方案在真实场景中的工程落地却常常陷入困境。

来自主题: AI技术研报

9539 点击 2026-03-25 13:41

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

小米MiMo大模型团队，加入AI拜年战场——推出HySparse，一种面向Agent时代的混合稀疏注意力架构。

来自主题: AI技术研报

8560 点击 2026-02-08 11:53

不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

近期，来自墨尔本大学和华中科技大学的研究者们发布了一篇深度综述，从 MLSys 的思维出发，用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化方法进行了系统性梳理与深入分析，并将相关资源整理成了持续维护的 Awesome 资源库，方便研究者与从业人员快速定位与落地。

来自主题: AI技术研报

6559 点击 2026-01-16 14:24

扩散语言模型推理太慢？北大团队提出ODB-dLLM框架，破解计算访存双重瓶颈

扩散语言模型推理太慢？北大团队提出ODB-dLLM框架，破解计算访存双重瓶颈

扩散语言模型推理太慢？北大团队提出ODB-dLLM框架，破解计算访存双重瓶颈

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力，最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持，挑战了传统自回归 LLMs 的统治地位。

来自主题: AI技术研报

7185 点击 2025-12-11 10:42

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

我们都知道 LLM 中存在结构化稀疏性，但其底层机制一直缺乏统一的理论解释。为什么模型越深，稀疏性越明显？为什么会出现所谓的「检索头」和「检索层」？

来自主题: AI技术研报

10155 点击 2025-11-13 15:19

NVIDIA港大MIT联合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

NVIDIA港大MIT联合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

NVIDIA港大MIT联合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

自回归（AR）大语言模型逐 token 顺序解码的范式限制了推理效率；扩散 LLM（dLLM）以并行生成见长，但过去难以稳定跑赢自回归（AR）模型，尤其是在 KV Cache 复用、和可变长度支持上仍存挑战。

来自主题: AI技术研报

8740 点击 2025-10-27 16:46

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

8032 点击 2025-10-22 14:52

上一页当前第1页,共2页下一页